AI资讯新闻榜单内容搜索-Agentic RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Agentic RL
Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

Z Potentials|26岁连续创业者陈锴杰:Scale Agentic RL开启模型下半场,但决胜点在于产品Taste

提起马卡龙,你会想到什么?是橱窗里的精致甜点,一种“少女心”的味觉象征?还是代表了温柔优雅的时尚配色?当一个AI产品也被命名为“马卡龙”,这份联想便悄然发生了偏移:从舌尖的甜,转向科技的未知,却又奇妙地保留了那一份色彩与气质。

来自主题: AI资讯
8988 点击    2025-12-11 15:34
100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

100 页 Agentic RL 综述!牛津、新国立、AI Lab 等联合定义 LLM 下半场

来自牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校,伦敦大学学院、帝国理工学院、上海人工智能实验室等等全球 16 家顶尖研究机构的学者,共同撰写并发布了长达百页的综述:《The Landscape of Agentic Reinforcement Learning for LLMs: A Survey》。

来自主题: AI技术研报
8043 点击    2025-10-03 14:15
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

过去几年,大语言模型(LLM)的训练大多依赖于基于人类或数据偏好的强化学习(Preference-based Reinforcement Fine-tuning, PBRFT):输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明显:缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报
8619 点击    2025-09-09 10:49
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
7592 点击    2025-06-22 16:08